内核方法是机器学习中最流行的技术之一,使用再现内核希尔伯特空间(RKHS)的属性来解决学习任务。在本文中,我们提出了一种新的数据分析框架,与再现内核Hilbert $ C ^ * $ - 模块(rkhm)和rkhm中的内核嵌入(kme)。由于RKHM包含比RKHS或VVRKHS)的更丰富的信息,因此使用RKHM的分析使我们能够捕获和提取诸如功能数据的结构属性。我们向RKHM展示了rkhm理论的分支,以适用于数据分析,包括代表性定理,以及所提出的KME的注射性和普遍性。我们还显示RKHM概括RKHS和VVRKHS。然后,我们提供采用RKHM和提议的KME对数据分析的具体程序。
translated by 谷歌翻译
由于自我批判性和歧义,了解动态的手动运动和动态动作是一项基本而又具有挑战性的任务。为了解决遮挡和歧义,我们开发了一个基于变压器的框架来利用时间信息以进行稳健的估计。注意到手部姿势估计和动作识别之间的不同时间粒度和语义相关性,我们建立了一个网络层次结构,其中有两个级联变压器编码器,其中第一个利用了短期的时间cue进行手姿势估算,而后者则每次聚集物,后者每次聚集体 - 帧姿势和对象信息在更长的时间范围内识别动作。我们的方法在两个第一人称手动作基准(即FPHA和H2O)上取得了竞争成果。广泛的消融研究验证了我们的设计选择。我们将开放源代码和数据以促进未来的研究。
translated by 谷歌翻译
本文提出了一个逐步连接的光场网络(Prolif),以构成复杂的前向场景的新观点。扩散编码一个4D光场,该场允许在一个训练步骤中渲染大量射线,以实现图像或贴片级损失。直接从图像中学习神经光场很难呈现多视图一致的图像,因为它对基础3D几何形状的不了解。为了解决这个问题,我们提出了一种渐进培训计划和正则化损失,以推断训练过程中的基础几何形状,这两者都会实现多视图一致性,从而极大地提高了渲染质量。实验表明,与香草神经光场相比,我们的方法能够实现明显更好的渲染质量,并且与挑战性的LLFF数据集和闪亮对象数据集的类似NERF的渲染方法相当。此外,我们证明了与LPIP的损失更好的兼容性,以实现与不同的光条件和剪辑损失的稳健性,以控制场景的渲染方式。项目页面:https://totoro97.github.io/projects/prolif。
translated by 谷歌翻译
在许多计算机视觉和图形应用程序中,从2D图像重建3D室内场景是一项重要任务。这项任务中的一个主要挑战是,典型的室内场景中的无纹理区域使现有方法难以产生令人满意的重建结果。我们提出了一种名为Neuris的新方法,以高质量地重建室内场景。 Neuris的关键思想是将估计的室内场景正常整合为神经渲染框架中的先验,以重建大型无纹理形状,并且重要的是,以适应性的方式进行此操作,以便重建不规则的形状,并具有很好的细节。 。具体而言,我们通过检查优化过程中重建的多视图一致性来评估正常先验的忠诚。只有被接受为忠实的正常先验才能用于3D重建,通常发生在平滑形状的区域中,可能具有弱质地。但是,对于那些具有小物体或薄结构的区域,普通先验通常不可靠,我们只能依靠输入图像的视觉特征,因为此类区域通常包含相对较丰富的视觉特征(例如,阴影变化和边界轮廓)。广泛的实验表明,在重建质量方面,Neuris明显优于最先进的方法。
translated by 谷歌翻译
在互动过程中了解人类的意图一直是一个持久的主题,它在人类机器人互动,虚拟现实和监视中都有应用。在这项研究中,我们专注于与大型每日物体的全身相互作用,并旨在预测对人类对象相互作用的顺序观察,以预测对象和人类的未来状态。由于没有这样的数据集专用于与大型每日物体的全身相互作用,因此我们收集了一个大规模的数据集,其中包含数千种用于培训和评估目的的交互。我们还观察到,对象的固有物理属性对于对象运动预测很有用,因此设计一组对象动态描述符以编码此类内部属性。我们将对象动态描述符视为一种新模式,并提出图形神经网络HO-GCN,以将运动数据和动态描述符为预测任务。我们显示了所提出的网络,消耗动态描述符可以实现最先进的预测结果,并帮助网络更好地推广到看不见的对象。我们还证明了预测结果对人类机器人的合作有用。
translated by 谷歌翻译
我们介绍了Sparseneus,这是一种基于神经渲染的新方法,用于从多视图图像中进行表面重建的任务。当仅提供稀疏图像作为输入时,此任务变得更加困难,这种情况通常会产生不完整或失真的结果。此外,他们无法概括看不见的新场景会阻碍他们在实践中的应用。相反,Sparseneus可以概括为新场景,并与稀疏的图像(仅2或3)良好合作。 Sparseneus采用签名的距离函数(SDF)作为表面表示,并通过引入代码编码通用表面预测的几何形状来从图像特征中学习可概括的先验。此外,引入了几种策略,以有效利用稀疏视图来进行高质量重建,包括1)多层几何推理框架以粗略的方式恢复表面; 2)多尺度的颜色混合方案,以实现更可靠的颜色预测; 3)一种一致性意识的微调方案,以控制由遮挡和噪声引起的不一致区域。广泛的实验表明,我们的方法不仅胜过最先进的方法,而且表现出良好的效率,可推广性和灵活性。
translated by 谷歌翻译
控制角色在实时动画系统中移动的方式是具有有用应用程序的具有挑战性的任务。现有的样式传输系统需要访问参考内容运动剪辑,但是,在实时系统中,未来的运动内容未知且易于使用用户输入进行改变。在这项工作中,我们呈现了一种使用动画综合网络的风格建模系统,基于本地运动阶段模拟运动内容。额外的样式调制网络使用功能明智的变换实时调制样式。为了评估我们的方法,我们创建并释放一个新的风格建模数据集100,其中包含超过400万帧的程式化的机器人数据,以100种不同的样式,为现有系统提供了许多挑战。为了模拟这些样式,我们将局部相位计算扩展到无联接的配方。与其他实时建模方法相比,我们展示了我们的系统在其风格表示中更加强大,有效,同时提高运动质量。
translated by 谷歌翻译
由于人称复杂的几何形状以及3D视听数据的可用性有限,语音驱动的3D面部动画是挑战。事先作品通常专注于使用有限的上下文学习短音频窗口的音素级功能,偶尔会导致不准确的唇部运动。为了解决这一限制,我们提出了一种基于变压器的自回归模型,脸形式,它们编码了长期音频上下文,并自动预测了一系列动画3D面网格。要应对数据稀缺问题,我们整合了自我监督的预训练的语音表示。此外,我们设计了两个偏置的注意机制,该机制非常适合于该特定任务,包括偏置横向模态多头(MH)的注意力,并且具有周期性位置编码策略的偏置因果MH自我关注。前者有效地对准音频运动模型,而后者则提供给更长音频序列的能力。广泛的实验和感知用户学习表明,我们的方法优于现有的现有最先进。代码将可用。
translated by 谷歌翻译
已经普遍研究了具有精确唇部同步的语音驱动的3D面部动画。然而,在演讲中为整个面部的综合制造动作很少被探索。在这项工作中,我们介绍了一个联合音频文本模型,用于捕捉表达语音驱动的3D面部动画的上下文信息。收集现有数据集以覆盖尽可能多的不同音素而不是句子,从而限制了基于音频的模型的能力,以了解更多不同的上下文。为解决此问题,我们建议利用从强大的预先培训的语言模型中提取的上下文文本嵌入,该模型从大规模文本数据中学习了丰富的上下文表示。我们的假设是文本特征可以消除上面表达式的变化,这与音频没有强烈相关。与从文本中学习音素级别功能的先前方法相比,我们调查语音驱动3D面部动画的高级上下文文本特征。我们表明,组合的声学和文本方式可以在维持抖动同步的同时综合现实的面部表达式。我们进行定量和定性评估以及感知用户学习。结果展示了我们模型对现有最先进的方法的卓越表现。
translated by 谷歌翻译
RGB图像的刚性对象的可伸缩6D构成估计旨在处理多个对象并推广到新物体。我们建立在一个著名的自动编码框架的基础上,以应对对象对称性和缺乏标记的训练数据,我们通过将自动编码器的潜在表示形状分解为形状并构成子空间来实现可伸缩性。潜在形状空间通过对比度度量学习模型不同对象的相似性,并将潜在姿势代码与旋转检索的规范旋转进行比较。由于不同的对象对称会诱导不一致的潜在姿势空间,因此我们用规范旋转重新输入形状表示,以生成形状依赖的姿势代码簿以进行旋转检索。我们在两个基准上显示了最新的性能,其中包含无类别和每日对象的无纹理CAD对象,并通过扩展到跨类别的每日对象的更具挑战性的设置,进一步证明了可扩展性。
translated by 谷歌翻译